#Memory Optimization

2 篇

Google 推出 TurboQuant AI 記憶體壓縮演算法，宣稱可將 LLM 工作記憶體需求縮減 6 倍並大幅降低營運成本，但目前缺乏獨立學術驗證。

MIT 研究人員發表了 Attention Matching 技術，能將大語言模型的 KV 快取記憶體需求降低 50 倍，且不失精度。同時 Google 開源了基於 Gemini 3.1 的持續性記憶體代理，標誌著 AI 從外部向量資料庫轉向原生記憶體工程。